机器学习或者深度学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class skew)。以常见的二分类问题为例,我们希望预测病人是否得了某种罕见疾病。但在历史数据中,阳性的比例可能很低(如百分之 0.1)。在这种情况下,学习出好的分类器是很难的,而且在这种情况下得到结论往往也是很具迷惑性的。再比如在 CTR 预估中,WAP 上的 CTR 通常在千分之几,APP 上 CTR 也就百分之一二,意味着 PV 远远要大于 Click。
以上面提到的场景来说,如果我们的分类器总是预测一个人未患病,即预测为反例,那么我们依然有高达 99.9% 的预测准确率。然而这种结果是没有意义的,那么有效在数据不平衡的情况下评估分类器呢?
当然,本文最终希望解决的问题是:在数据偏斜的情况下,如何得到一个不错的分类器?如果可能,是否可以找到一个较为简单的解决方法,而规避复杂的模型、数据处理,降低我们的工作量。
对于平衡的数据,我们一般都用准确率(accuracy),也就是(1 - 误分率)作为一般的评估标准。这种标准的默认假设前提是:“数据是平衡的,正例与反例的重要性一样,二分类器的阈值是 0.5。” 在这种情况下,用准确率来对分类器进行评估是合理的。
而当数据不平衡时,准确率就非常具有迷惑性,而且意义不大。下面给出几种主流的评估方法:
- ROC 是一种常见的替代方法,全名 receiver operating curve,计算 ROC 曲线下的面积是一种主流方法
- Precision-recall curve 和 ROC 有相似的地方,但定义不同,计算此曲线下的面积也是一种方法
- Precision@n 是另一种方法,是指将分类阈值设定得到恰好 n 个正例时分类器的 precision
- Average precision 也叫做平均精度,主要描述了 precision 的一般表现,在异常检测中有时候会用
- 直接使用 Precision 也是一种想法,但此时的假设是分类器的阈值是 0.5,因此意义不大
至于哪种方法更好,一般来看我们在极端数据不平衡中更在意 “少数的类别”,因此 ROC 不像 precision-recall curve 那样更具有吸引力。在这种情况下,Precision-recall curve 不失为一种好的评估标准。还有一种做法是,仅分析 ROC 曲线左边的一小部分,从这个角度看和 precision-recall curve 有很高的相似性。
同理,因为我们更在意罕见的正例,因此 precision 尤为重要,因此 average precision (macro)也是常见的评估标准。此处特意要提醒两点:(1)没有特殊情况,不要用准确率(accuracy),一般都没什么帮助。(2)如果使用 precision,请注意调整分类阈值,precision@n 更有意义。
对于数据不平衡的研究已经有很多年了,下面结合我的了解举几个简单的例子:
- 对数据进行采用的过程中通过相似性同时生成并插样 “少数类别数据”,叫做 SMOTE 算法
- 对数据先进行聚类,再将大的簇进行随机欠采样或者小的簇进行数据生成
- 把监督学习变为无监督学习,舍弃掉标签把问题转化为一个无监督问题,如异常检测
- 先对多数类别进行随机的欠采样,并结合 boosting 算法进行集成学习
上面提到的算法比较偏理论,实际应用中的最简单的算法无外乎三种:
- 对较多的那个类别进行欠采样 (under-sampling),舍弃一部分数据,使其与较少类别的数据相当;
- 对较少的类别进行过采样 (over-sampling),重复使用一部分数据,使其与较多类别的数据相当;
- 阈值调整(threshold moving),将原本默认为 0.5 的阈值调整到 较少类别 /(较少类别 + 较多类别)即可;
当然很明显我们可以看出,第一种和第二种方法都会明显的改变数据分布,我们的训练数据假设不再是真实数据的无偏表述。在第一种方法中,我们浪费了很多数据。而第二类方法中有无中生有或者重复使用了数据,会导致过拟合的发生。
因此欠采样的逻辑中往往会结合集成学习来有效的使用数据,假设正例数据 n,而反例数据 m 个。我们可以通过欠采样,随机无重复的生成(k=n/m)个反例子集,并将每个子集都与相同正例数据合并生成 k 个新的训练样本。我们在 k 个训练样本上分别训练一个分类器,最终将 k 个分类器的结果结合起来,比如求平均值。
但不难看出,其实这样的过程是需要花时间处理数据和编程的,对于很多知识和能力有限的人来说难度比较大。特此推荐两个简单易行且效果中上的做法:
- 简单的调整阈值,不对数据进行任何处理。此处特指将分类阈值从 0.5 调整到正例比例;
- 使用现有的集成学习分类器,如随机森林或者 xgboost,并调整分类阈值;
以上总结是个人的一些思考以及前人的一些总结,仅供参考。